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(54) Tide: METHOD FOR DETECTING SPEECH ACTIVITY 
(54) Titre: PROCEDE DE DETECTION D'ACTIVITE VOCALE 
(57) Abstract 



The invention concerns a method whereby the 
digital speech signal (s) processed by successive frames 
is subjected to noise suppression taking into account 
noise estimations included in the signal, updated for 
each frame based on at least one degree of speech 
activity (70,1). The method consists in carrying out an 
a priori noise suppression of each frame speech signal 
on the basis of the noise estimations obtained while 
processing at least one previous frame, and analysing 
the energy variations of the signal which has been 
subjected to an a priori noise suppression to detect the 
degree of speech activity of said frame. 

(57) Abrege* 

Le signal de parole numerique (s) trait6 par 
trames successives est soumis a un debruitage en 
tenant compte d 'estimations du bruit compris dans le 
signal, mises a jour pour chaque trame d'une maniere 
dtfpendante d'au moins un degre" d'activit6 vocale (7n,i). 
On precede a un d6bruitage a priori du signal de 
parole de chaque trame sur la base d 'estimations du 
bruit obtenues lors du traitement d'au moins unc trame 
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pr6c6dente, et on analyse les variations d'energie du signal d6bruite" a priori pour d&ecter le degre* d 'activity vocale de ladite trame. 
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PROCEDE DE DETECTION D' ACTIVITE VOCALE 

La presente invention concerne les techniques 
numeriques de traitement de signaux de parole. Elle 
concerne plus particulierement les techniques faisant 
5 appel a une detection d' activity vocale afin d'effectuer 
des traitements diff^rencies selon que le signal supporte 
ou non une activity vo,cale. 

Les techniques numeriques en question reinvent de 
domaines varies : codage de la parole pour la transmission 
• 10; ou le stockage, reconnaissance de la parole, diminution du 
bruit, annulation d'echo... 

Les methodes de detection d' activite vocale ont 
pour principale difficulty la distinction entre 1' activite 
vocale et le bruit qui 1' accompagne . Le recours a une 

15 technique de d£bruitage classique ne permet pas de traiter 
cette difficulty, puisque ces techniques font elles-memes 
appel a des estimations du bruit qui dependent du degre 
d' activite vocale du signal. 

Un but principal de la presente invention est 

20 d'am£liorer la robustesse au bruit des methodes de 
detection d' activite vocale. 

L' invention propose ainsi un precede de detection 
d' activity vocale dans un signal de parole numerique 
traite par trames successives, dans lequel on soumet le 

25 signal de parole a un d£bruitage en tenant compte 
d' estimations du bruit compris dans le signal, mises a 
jour pour chaque trame d'une maniyre dependante d' au moins 
un degre d' activity vocale determine pour ladite trame. 
Selonl' invention, on procede a un debruitage a priori du 

30 signal de parole de chaque trame sur la base d' estimations 
du bruit obtenues lors du traitement d'au moins une trame 
prec£dente, et on analyse les variations d'energie du 
signal debruite a priori pour detecter le degr£ d' activity 
vocale de ladite trame. 

35 Le fait de pro.ceder a la detection d' activity 

vocale (selon une methode qui peut gyneralement etre toute 
methode connue) sur la base d'un signal debruite a priori 
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ameliore sensiblement les performances de cette detection 
lorsque le bruit environnant est relativement important. 

Dans la suite de la presente description, on 
illustrera le precede de detection d'activite vocale selon 
5 1' invention dans un systeme de debruitage d' un signal de 
parole. On comprendra que ce procede peut trouver des 
applications dans de nombreux autres types de traitement 
numerique de la parole ; dans lesquels on souhaite disposer 
d'une information sur le degre d'activite vocale du signal 

10 traite : codage, reconnaissance, annulation d' echo . . . 

D' autres particularity et . avantages de la 
presente invention apparaitront dans la description ci- 
apres d'exemples de realisation non limitatifs, en 
reference aux dessins annexes, dans lesquels : 

15 " la figure 1 est un schema synoptique d'un 

systeme de debruitage mettant en oeuvre la presente 
invention ; 

- les figures 2 et 3 sont des organigrammes de 
procedures utilisees par un detecteur d'activite vocale du 

20 systeme de la figure 1 ; 

- la figure 4 est un diagramme repr§sentant les 
etats d'un automate de detection d'activite vocale ; 

- la figure 5 est un graphique illustrant les 
variations d'un degre d'activite vocale ; 

- la figure 6 est un schema synoptique d'un module 
de surestimation du bruit du systeme de la figure 1 ; 

- la figure 7 est un graphique illustrant le 
calcul d'une courbe de masquage ; et 

la figure 8 est un graphique illustrant 
1' exploitation des courbes de masquage dans le systeme de 
la figure 1. 

Le systeme de debruitage represents sur la figure 
1 traite un signal numerique de parole s. Un module de 
fenetrage 10 met ce signal s sous forme de fenetres ou 
35 trames successives, constitutes chacune d'un nombre N 
d'£chantillons de signal numerique. De facon classique, 
ces trames peuvent presenter des recouvrements mutuels. 
Dans la suite de la presente description, on considSrera, 



25 



30 
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sans que ceci soit limitatif , que les trames sont 
constitutes de N=256 echantillons a une frequence 
d' echantillonnage F e de 8 kHz, avec une ponderation de 

Hamming dans chaque fenetre, et des recouvrements de 50% 
5 entre fenetres consecutives . 

La trame de signal est transformee dans le domaine 
frequentiel par un module 11 appliquant un algorithme 
classique de transformee de Fourier rapide (TFR) pour 
calculer le module du spectre du signal. Le module 11 
10 delivre alors un ensemble de N=256 composantes 
frequentielles du signal de parole, * notees S„ ou n 

designe le numero de la trame courante, et f une frequence 
du spectre discret. Du fait des proprietes des signaux 
numeriques dans le domaine frequentiel, seuls les N/2=128 

15 premiers echantillons sont utilises. 

Pour calculer les estimations du bruit contenu 
dans le signal s, on n' utilise pas la resolution 
f requentielle disponible en sortie de la transformee de 
Fourier rapide, mais une resolution plus faible, 

20 determinee par un nombre I de bandes de frequences 
couvrant la bande [0,F e /2] du signal. Chaque bande i 

(l<i£I) s'etend entre une frequence inferieure f(i-l) et 
une frequence superieure f(i), avec f(0)=0, et f(I)=F e /2. 
Ce decoupage en bandes de frequences peut etre uni forme 
25 (f (i)-f (i-l)=F e /2I) . II peut egalement etre non uniforme 
(par exemple selon une echelle de barks) . Un module 12 
calcule les moyennes respectives des composantes 
spectrales S n ^ f du signal de parole par bandes, par 
exemple par une ponderation uniforme telle que : 

30 c . = 1 V c 

n >* f(i) - jf(i-l) r r S n,f (D 

f e[f(i-l) t fii)[ 

Ce moyennage diminue les fluctuations entre les 
bandes en moyennant les contributions du bruit dans ces 
bandes, ce qui diminuera la variance de l r estimateur de 
bruit. En outre, ce moyennage permet une forte diminution 
35 de la complexite du systeme. 
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Les composantes spectrales moyenn^es S sont 
adressees a un module 15 de detection d'activite vocale et 
a un module 16 d' estimation du bruit. Ces deux modules 15, 
16 fonctionnent conjointement, en ce sens que des degres 
5 d'activite vocale y n>i mesures pour les differentes bandes 
par le module 15 sont utilises par le module 16 pour 
estimer l'energie a , long terme du bruit dans les 
differentes bandes, tandis que ces estimations a long 
terme B n?i sont utilisees par le module 15 pour proceder a 
10 : un debruitage a priori du signal de parole dans les 
differentes bandes pour determiner les degres d'activite 
vocale y n/i . 

Le fonctionnement des modules 15 et 16. peut 
correspondre aux organigrammes represents sur les figures 
15 2 et 3. 

Aux etapes 17 a 20, le module 15 precede au 
debruitage a priori du signal de parole dans les 
differentes bandes i pour la trame de signal n. Ce 
debruitage a priori est effectue selon un processus 
20 classique de soustraction spectrale non lineaire a partir 
d' estimations du bruit obtenues lors d' une ou plusieurs 
trames precedentes. A l'etape 17, le module 15 calcule, 
avec la resolution des bandes i, la reponse en frequence 
Hp n/i du filtre de debruitage a priori, selon la formule : 

25 hd ■ - n,i ~ an " Tl ' i ' fg-gjj 

np n,i ~ (2) 

ou xl et t2 sont des retards exprimes en nombre de trames 
ixlZl, x2>0), et a^ ;i est un coefficient de surestimation 
du bruit dont la determination sera expliquee plus loin. 
Le retard xl peut etre fixe (par exemple Tl=l) ou variable. 
30 II est d'autant plus faible qu'on est confiant dans la 
detection d'activite vocale. 

Aux etapes 18 a 20, les composantes spectrales 
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Ep n ^ sont calculfees selon : 

Ep n>i = max{ifp n/i . S n/i , PPiA-H,i} < 3) 
ou Pp^ est un coefficient de plancher proche de 0, servant 

classiquement a eviter que le spectre du signal debruite 
5 prenne des valeurs negatives ou trop faibles qui 
provoqueraient un bruit ^musical . 

Les etapes 17 & 20 consistent done essentiellement 
a soustraire du spectre du signal une estimation, majoree 

par le coefficient <* n _ T i^ / du spectre' du bruit estime a 

10 priori. 

A l'etape 21, le module 15 calcule l'energie du 
signal debruite a priori dans les differentes bandes i 

pour la trame n : = Ep* ^ . II calcule aussi une 

moyenne globale E n ^ 0 de l'energie du signal debruite a 
15 priori, par une soitune des energies par bande E n . , 

a, 1 

ponderee par les largeurs de ces bandes. Dans les 
notations ci-dessous, l'indice i=0 sera utilise pour 
designer la bande globale du signal. 

Aux etapes 22 et 23, le module 15 calcule, pour 
chaque bande i (0£i<I), une grandeur AE^ , representant 
la variation a court terme de l'energie du signal debruite 
dans la bande i, ainsi qu'une valeur a long terme E n ^ de 
l'energie du signal debruite dans la bande i. La grandeur 
^ E n, i P eut etre calculee par une formule simplifiee de 



20 



25 derivation : AE„ 



E n-M + E n-3,i ~ E n-l,i ~ E n,i 



Quant a 



10 

l'energie a long terme E n/i , elle peut etre calculee a 

l'aide d' un facteur d'oubli Bl tel que 0<B1<1, a savoir 
E nr i = Bl . E n . U + a-SD . E n>i . 
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Apres avoir calcule les energies E n ^ i du signal 
debruite, ses variations a court terme AE n ^ et ses 
valeurs a long terme E n ^ de la maniere indiquee sur la 

figure 2, le module 15 calcule, pour chaque bande i 
5 (0<i<I), une valeur p i representative de 1' evolution de 

l'energie du signal debruite. Ce calcul est effectu£ aux 
etapes 25 a 36 de la figure 3, executees pour chaque bande 
i entre i=0 et i=I . Ce calcul fait appel a un estimateur a 
long terme de l'enveloppe du bruit ba^, a un estimateur 

10 interne bi^ et a un compteur de trames bruitees b^ . 

A l'etape 25, la grandeur AE^ • est comparee a un 
seuil el . Si le seuil el n' est pas. atteint, le compteur bj_ 

est increments d'une unite a l'etape 26. A l'etape 27, 
1' estimateur a long terme ba^ est compare a la valeur de 

15 l'energie lissSe E n/ i . Si ba^E^^, l'estimateur ba^ est 

pris egal a la valeur lissee E U/ j_ a l'etape 28, et le 

compteur b^ est remis a z£ro. La grandeur p i , qui est 

prise egale au rapport ba^/E n/ i (6tape 36), est alors 
§gale a 1. 

20 Si l'etape 27 montre que ba i <E rif j_ / le compteur b^ 

est compare a une valeur limite bmax a l'etape 29. Si 
b^>bmax, le signal est considere comme trop stationnaire 

pour supporter de l'activite vocale. L'etape 28 precitee, 
qui revient a considerer que la trame ne comporte que du 
25 bruit, est alors executee. Si b^Sbmax a l'etape 29, 

1' estimateur interne bi^ est calculi a l'etape 33 selon : 
bi± = (L-Bm) . E n/ i + Bm . ba± ( 4 ) 

Dans cette formule, Bm repr§sente un coefficient de mise a 
jour compris entre 0,90 et 1. Sa valeur differe selon 
30 l'6tat d'un automate de detection d'activite vocale 
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(etapes 30 a 32) . Cet etat 5 n ^ 1 est celui determine lors 
du traitement de la trame precedente . Si 1' automate est 
dans' un etat de detection de parole (5 n _ 1 =2 a l'etape 30), 

le coefficient Bm prend une valeur Bmp tres proche de 1 
5 pour que l'estimateur du bruit soit tres faiblement mis a 
jour en presence de parole. Dans le cas contraire, le 
coefficient Bm prend une valeur Bins plus faible, pour 
permettre une mise a jour plus significative de 
l'estimateur de bruit en phase de silence. A l'etape 34, 
10 l'ecart ba^-bi.^ entre l'estimateur .a long terme et 

l'estimateur interne du bruit est compare a un seuil e2 . 
Si le seuil e2 n'est pas atteint, l'estimateur a long 
terme ba^ est mis a jour avec la valeur de l'estimateur 

interne bi i a l'etape 35. Sinon, l'estimateur a long terme 

15 ba^ reste inchange. On evite ainsi que de brutales 

variations dues & un signal de parole conduisent a une 
mise a jour de l'estimateur de bruit. 

Apres avoir obtenu les grandeurs pj_, le module 15 

proc£de aux decisions d' activite vocale a l'etape 37. Le 
2 0 module 15 met d'abord a jour l'etat de 1' automate de 
detection selon la grandeur p Q calculee pour 1' ensemble de 

la bande du signal. Le nouvel etat 5 R de 1' automate depend 

de l'etat precedent 5 n _i et de p 0 , de la maniere 
representee sur la figure 4. 
25 Quatre etats sont possibles : 5=0 detecte le 

silence, ou absence de parole / 8=2 detecte la presence 
d'une activite vocale ; et les etats 8=1 et 5=3 sont des 
etats intermediaires de montee et de descente. Lorsque 
1' automate est dans l'etat de silence (S^^O) , il y reste 

30 si Pq ne depasse pas un premier seuil SE1, et il passe 
dans l'etat de montee dans le cas contraire. Dans l'etat 
de montee (5 n _-^=l) , il revient dans l'etat de silence si 
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p 0 est plus petit que le seuil SE1, il passe dans l'etat 

de parole si p Q est plus grand qu'un second seuil SE2 plus 

grand que le seuil SE1, et il reste dans l'6tat de montee 
si SE1< p 0 <SE2. Lorsque 1' automate est dans l'etat de 

5 parole (8 n ^ 1 =2) , il y reste si p 0 depasse un troisieme 

seuil SE3 plus petit que le seuil SE2, et il passe dans 
l'etat de descente dans le cas contraire. Dans l'6tat de 
descente ^ n _^=3), 1' automate revient dans l'§tat de 

.parole si p Q est plus grand que le seuil SE2, il revient 
10 dans l'etat de silence si p Q est en dega d'un quatrieme 
seuil SE4 plus petit que le seuil SE2, et il reste dans 
l'etat de descente si SE4£p 0 ^SE2. 

A l'6tape 37, le module 15 calcule 6galement les 
degres d'activite vocale y n ^ ^ dans chaque bande i>l. Ce 

15 degre Y n ^ est de preference un param£tre non binaire, 
c'est-a-dire que la fonction y_ j-g(pj) est une fonction 
variant continQment entre 0 et 1 en fonction des valeurs 
prises par la grandeur p i . Cette fonction a par exemple 

1' allure representee sur la figure 5. 
20 Le module 16 calcule les estimations du bruit par 

bande, qui seront utilisees dans le processus de 
d6bruitage, en utilisant les valeurs successives des 
composantes S • et des degres d'activite vocale y n , . 

Ceci correspond aux etapes 40 a 42 de la figure 3. A 
25 l'etape 40, on determine si 1' automate de detection 
d'activite vocale vient de passer de l'6tat de montee a 
l'etat de parole. Dans 1' affirmative, les deux dernieres 

A A 

estimations ^ n -\ t i et B n-2,i precedemment calculees pour 
chaque bande i>l sont corrig£es conform£ment a la valeur 
30 de 1' estimation precedente ^ n -2 f i • Cette correction est 
effectuee pour tenir compte du fait que, dans la phase de 
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montee (8=1), les estimations a long terme de l'6nergie du 
bruit dans le processus de detection d' activite vocale 
(etapes 30 a 33) ont pu etre calculees comme si le signal 
ne comportait que du bruit (Bm=Bms), de sorte qu'elles 
5 risquent d'etre entachees d'erreur. 

A l'6tape 42, le module 16 met a jour les 
estimations du bruit par bande selon les formules : 

*n,i = h'*n-l,i + .S n/i (5) 

: • *n,i = W'VU ^-WA,! (6) 

10 ou X B designe un facteur d'oubli tel que 0<X B <1. La 

formule (6) met en Evidence la prise en compte du degr£ 
d' activite vocale non binaire y„ 

Comme indique precedemment, les estimations a long 
terme du bruit B n ^ font l'objet d'une surestimation, par 

15 un module 45 (figure 1), avant de proceder au d6bruitage 
par soustraction spectrale non lineaire. Le module 45 

calcule le coefficient de surestimation a' n ^ precedemment 
evoque, ainsi qu'une estimation majoree B n ^ qui correspond 

r 

essentiellement a a n ,-.B n ,-. 

J If J. llfJL 

20 L' organisation du module de surestimation 45 est 

representee sur la figure 6. L' estimation majoree fl' - est 

obtenue en combinant 1' estimation d long terme B n ^ et une' 

mesure AB™** de la variability de la composante du bruit 

dans la bande i autour de son estimation a long terme. 
25 Dans l'exemple considere, cette combinaison est, pour 
l'essentiel, une simple somme realisee par un additionneur 
46. Ce pourrait egalement etre une somme ponderee. 

Le coefficient de surestimation est egal au 

rapport entre la somme ^n f i + AB n4 delivree par 
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1' additionneur 46 et 1' estimation & long terme retardee 
B n - X 2 t i (diviseur 47), plafonn£ a une valeur limite <x max , 

par exemple o^x^ (bloc 48). Le retard t3 sert a corriger 

le cas echeant, dans les phases ^de mont£e (8=1), la valeur 

5 du coefficient de surestimation a n ^ , avant que les 

estimations a long terme aient ete corrigees par les 
etapes 40 et 41 de la figure 3 (par exemple t3=3) . 

L' estimation majoree B n ± est finalement' prise 
i 

egale k a n ^. B n -x3,i < mu ltiplieur 49). 

10 La mesure AB™** <*e la variability du bruit reflete 

la variance de 1'estimateur de bruit. Elle est obtenue en 
fonction des valeurs de S n ^ i et de B n ^ calculees pour un 

certain nombre de trames prec£dentes sur lesquelles le 
signal de parole ne presente pas d'activite vocale dans la 

15 . bande i. C'est une fonction des ecarts 5 n -/c,i " **n-k i 

calcules pour un nombre K de trames de silence (n-Jc<n) . 
Dans 1' exemple represents, cette fonction est simplement 
le maximum (bloc 50) . Pour chaque trame n, le degre 
d'activite vocale y n ^ i est compare a un seuil (bloc 51) 



20 pour decider si l'ecart 



s n,i B n,i 



, calcule en 52-53, doit 



ou non etre charge dans une file d'attente 54 de K 
emplacements organisee en mode premier entrS-premier sorti 
(FIFO). Si y Rfi ne d£passe pas le seuil (qui peut etre 

egal a 0 si la fonction g() a la forme de la figure 5), la 
25 FIFO 54 n'est pas alimentee, tandis qu'elle l'est dans le 
cas contraire. La valeur maximale contenue dans la FIFO 54 

est alors fournie comme mesure de variability AB™** . 

La mesure de variability AB™Y peut, en variante, 

etre obtenue en fonction des valeurs S^, * (et non . ) et 

n, r n, i ' 
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^n,i • 0n P roc ^ cie alors de la meme maniere, sauf que la FIFO 



54 cpntient non pas - B n _^^ 



pour chacune des bandes 



i, mais plutot max 



s n-k,£ " B n-k,i 



Grace aux estimations independantes des 
5 fluctuations a long \terme du bruit B n et de sa 

variability a court terme AB™ a ? , 1'estimateur majore il 

. procure une excellente robustesse aux ' bruits musicaux du 
procede de debruitage. 

Une premiere phase de la soustraction spectrale 
10 est reaiisee par le module 55 represents sur la figure 1. 
Cette phase fournit, avec la resolution des bandes i 

(l<i£I), la reponse en frequence #\ f ± d'un premier filtre 
de debruitage, en fonction des composantes S„ • et B n et 

II f JL 11(1. 

des coefficients de surestimation oc^ . Ce calcul peut 
15 etre effectue pour chaque bande i selon la formule : 

S n-x4,i 

ou t4 est un retard entier determine tel que x4£0 (par 

exemple x4=0) . Dans l'expression (7), le coefficient 

reprSsente, comme le coefficient pp^ de la formule (3), un 

20 plancher servant classiquement a eviter les valeurs 
negatives ou trop faibles du signal d6bruite. 

De fagon connue (EP-A-0 534 837), le coefficient 

de surestimation a n ^ pourrait §tre remplace dans la 
formule (7) par un autre coefficient egal k une fonction 
25 de a n ^ et d'une estimation du rapport signal-sur-bruit 
(par exemple S^/B^), cette fonction etant decroissante 



^ rriax< 



H n4 = >- (7J 
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selon la valeur estimee du rapport signal-sur-bruit . Cette 

fonction est alors egale a a n ^ pour les valeurs les plus 

faibles du rapport signal-sur-bruit. En effet, lorsque le 
signal est tres bruits, il n'est a priori pas utile de 
5 diminuer le facteur de surestimation. Avantageusement , 
cette fonction decroit vers zero pour les valeurs les plus 
elevees du rapport signal/bruit. Ceci permet de proteger 
les zones les plus energetiques du spectre, ou le signal 
de parole est le plus signif icatif , la quantite soustraite 

ID du signal tendant alors vers zero. 

Cette strategie peut etre affinee en 1'appliquant 
de maniere selective aux harmoniques de la frequence 
tonale (« pitch ») du signal de parole lorsque celui-ci 
presente une activite vocale. 

15 Ainsi, dans la realisation representee sur la 

figure 1, une seconde phase de debruitage est realisee par 
un module 56 de protection des harmoniques. Ce module 
calcule, avec la resolution de la transformee de Fourier, 

la reponse en frequence ^\ f f d'un second filtre de 

l ' - _ 

20 debruitage en fonction des parametres K n ±, a n ^ ± , B n ^, o n , 

S„ 4 et de la frequence tonale f =F Q /T„ calculee en dehors 

il, x - P " P 

des phases de silence par un module d' analyse harmonique 
57. En phase de silence (5 n =0) , le module 56 n'est pas en 

service, c'est-&-dire que H n,f = H n,i P our chaque 

25 frequence f d'une bande i. Le module 57 peut appliquer 
toute methode connue d' analyse du signal de parole de la 
trame pour determiner la periode T , exprimee comme un 

nombre entier ou f ractionnaire d' echantillons, par exemple 
une methode de prediction lineaire. 
30 La protection apport&e par le module 56 peut 

consister cl effectuer, pour chaque frequence f appartenant 
a une bande i : 
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H n,f = 1 



SI 



s n,i " a - B 



n,i 



et 3tj entier / 



f - TJ. f r 



£ Af / 2 



(8) 
(9) 



H 



n,f 



= H 



n,f 



sinon 



Af =F /N represente la resolution spectrale de la 
e 

transformee de Fourier. Lorsque H n,f = lf . ia quantite 



sous 



traite de la composante $ n/ f sera nulle. Dans ce 

5 calcul, les coefficients de plancher 3* (par exemple 

Pi = Pi * expriment le fait que certaines harmoniques de la 
frequence tonale f p peuvent etre masquees par du bruit, de 

sorte qu'il n'est pas utile de les proteger. 

Cette strategie de protection est de preference 
10 appliquee pour chacune des frequences les plus proches des 
harmoniques de f p , c' est-ci-dire pour t\ entier quelconque. 

Si on designe par 8f p la resolution f requentielle 

avec laquelle le module d' analyse 57 produit la frequence 
tonale estim&e f p , c'est-a-dire que la frequence tonale 

15 reelle est comprise entre f p -8f p /2 et f p +8f p /2, alors 

l'ecart entre la ri-i£me harmonique de la frequence tonale 
reelle est son estimation T]xf p (condition (9)) peut aller 

jusqu'a ±Tjx8f p /2. Pour les valeurs elev£es de rj, cet ecart 

peut etre sup§rieur & la demi-resolution spectrale Af/2 de 
20 la transformee de Fourier. Pour tenir compte de cette 
incertitude et garantir la bonne protection des 
harmoniques de la frequence tonale reelle, on peut 
proteger chacune des frequences de l'intervalle 

l^xfp- r|x5jf p /2 , r|xjf p 4- rix5f p /2j , c'est-a-dire remplacer la 

25 condition (9) ci-dessus par : 

3r| entier / f - y\. f 



<> (ti. 5f p + Afj/2 



(9') 
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Cette facpon de proc6der (condition !9')) presente un 
interet particulier lorsque les valeurs de r\ peuvent etre 
grandest notamment dans le cas ou le procede est utilise 
dans un syst^me a bande elargie. 
5 Pour chaque frequence protegee, la r§ponse en 

frequence corrigee f peut etre egale & 1 comme indique 

ci-dessus, ce qui correspond a la soustraction d'une 
quantite nulle dans le cadre de la soustraction spectrale, 
c'est-a-dire a une protection complete de la frequence en 
10 question. Plus generalement, cette reponse en frequence 

corrigee H 2 n ^ f pourrait etre prise egale a une valeur 

comprise entre 1 et H x n ^ f selon le degre de protection 

souhaite, ce qui correspond a la soustraction d'une 
quantite inferieure a celle qui serait soustraite si la 
15 frequence en question n'etait pas protegee. 

Les composantes spectrales S^^f . d'un signal 

debruite sont calculees par un multiplieur 58 : 

s lf = H l,fSn,f 
Ce signal est fourni a un module 60 qui 

20 calcule, pour chaque trame n, une courbe de masquage en 
appliquant un modele psychoacoustique de perception 
auditive par l'oreille humaine. 

Le phenomene de masquage est un principe connu du 
fonctionnement de l'oreille humaine. Lorsque deux 

25 frequences sont entendues simultanement , il est possible 
que l'une des deux ne soit plus audible. On dit alors 
qu'elle est masquee . 

II existe differentes methodes pour calculer des 
courbes de masquage. On peut par exemple utiliser celle 

30 developpee par J.D. Johnston («Transform Coding of Audio 
Signals Using Perceptual Noise Criteria », IEEE Journal on 
Selected Area in Communications, Vol. 6, No. 2, 
fevrier 1988) . Dans cette methode, on travaille dans 
l'6chelle f requentielle des barks. La courbe de masquage 
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est vue comme la convolution de la fonction d' etalement 
spectral de la membrane basilaire dans le domaine bark 
avec le signal excitateur, constitue dans la presente 

application par le signal S^^ f . La fonction d' etalement 

5 spectral .peut etre mod&lisee de la maniere representee sur 
la fi'gure 7. Pour chaque bande de bark, on calcule la 
contribution des bandes inf&rieures et superieures 
convoluees par la fonction d' etalement de la membrane 
basilaire : 

% 1 5 ^q f Q S n,q } 

10 ^ = g£o (ioiO/10)*^ > + g 4 +1 ( 10 25/io)fr'-*) (U) 

ou les indices q et q' designent les bandes de bark 
(0£q,q'<Q), et S^g* represente la moyenne des composantes 

s n,£ signal excitateur debruite pour les frequences 

discretes f appartenant a la bande de bark q' . 
15 Le seuil de masquage M_ „ est obtenu par le module 

60 pour chaque bande de bark q, selon la formule : 

M n /q = C n,q/ R q < 12 > 
ou Rg depend du caractere plus ou moins vois§ du signal. 

De fagon connue, une forme possible de R q est : 

20 10.1og 10 (R q ) - (A+q) .% + B. [!-%) (13) 

avec A=14,5 et B=5,5. % designe un degr£ de voisement du 
signal de parole, variant entre zero (pas de voisement) et 
1 (signal fortement voise) . Le param&tre % peut etre de la 
forme connue : 

. f SFM 1 
X - «n{— , ij 

ou SFM represente, en decibels, le rapport entre la 
moyenne arithmetique et la moyenne g£ometrique de 
l'<§nergie des bandes de bark, et SFM max =-60 dB. 

Le syst&me de debruitage comporte encore un module 
30 62 qui corrige la reponse en frequence du filtre de 
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debruitage, en fonction de la courbe de raasquage M n ^ q 

calculee par le module 60 et des estimations majorees B n ^ 

calculees par le module 45. Le module 62 decide du niveau 
de debruitage qui doit reellement etre atteint. 
5 En comparant l'enveloppe de 1' estimation majoree 

du bruit avec l'enveloppe formee par les seuils de 
masquage M„ „, on decide de ne debruiter le signal que 

iif q .i 

dans la mesure ou 1' estimation majoree B n ^ depasse la 

courbe de masquage. Ceci evite de supprimer inutilement du 
10 bruit masque par de la parole. 

La nouvelle reponse # ^ / / pour une frequence f 

appartenant a la bande i definie par le module 12 et a la 
bande de bark q, depend ainsi de l'ecart relatif entre 

1' estimation majoree B n ± de la composante spectrale 

15 correspondante du bruit et la courbe de masquage M R/ q^ de 

la maniere suivante : 



max- 



B n,i ~ M n,q 

*1 ' Q 



B n,i 



(14) 



En d'autres termes, la quantite soustraite d'une 
composante spectrale s n ,f clans le processus de 

20 soustraction spectrale ayant la reponse f requentielle 

H n,f ' est sensiblement egale au minimum entre d'une part 

la quantite soustraite de cette composante spectrale dans 
le processus de soustraction spectrale ayant la reponse 

f requentielle H^ f , et d' autre part la fraction de 

*» 

25 1' estimation majoree B n ^ de la composante spectrale 

correspondante du bruit qui, le cas echeant, depasse la 
courbe de masquage M n ^. 

La figure 8 illustre le principe de la correction 
appliquee par le module 62. Elle montre schematiquement un 
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exemple de courbe de masquage M n ^ q calculee sur la base 
des composantes spectrales f du signal debruite, ainsi 

que 1' estimation majoree B n ^ du spectre du bruit. La 

quantite finalement soustraite des composantes S„ f sera 

n, i 

5 celle representee par les zones hachur6es, c'est-a-dire 

limitee a la fraction * de 1' estimation majoree B ni des 

composantes spectrales du bruit qui depasse la courbe de 
masquage . 

Cette soustraction est effectuee en multipliant la 

10 reponse f requentielle H^ f du filtre de debruitage par les 

composantes spectrales S n f du signal de parole 

(multiplieur 64). Un module 65 reconstruit alors le signal 
debruite dans le domaine temporel, en operant la 
transformee de Fourier rapide inverse (TFRI) inverse des 

15 echantillons de frequence s\ f delivres par le multiplieur 

64. Pour chaque trame, seuls les N/2=128 premiers 
echantillons du signal produit par le module 65 sont 

delivres comme signal debruite final s 3 , apres 
reconstruction par addition-recouvrement avec les N/2=128 
20 derniers echantillons de la trame precedente (module 66). 
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REVEND ICATIONS 

1. Procede de detection d'activite vocale dans un 

signal de parole num£rique (s) traite par trames 
successives, dans lequel on soumet le signal de parole a 
5 un debruitage en tenant compte d' estimations du bruit 
compris dans le signal, mises a jour pour chaque trame 
d/une maniere dependante d'au moins un degre d' activity 
vocale (Y n/i ) determine pour ladite trame, caracterise en 

ce qu'cn procede a un debruitage a priori du signal de 
parole de chaque trame sur la base d' estimations du bruit 

(a n-xl,i* B n-xl,i } obtenues lors du traitement d'au moins une 

trame precedente, et on analyse les variations d'energie 

du signal debruite a priori (Ep ngi ) pour detecter le degre 

d'activite vocale de ladite trame. 

2. Procede selon la revendication 1, dans lequel le 
degre d'activite vocale (y^) est un paramStre non 
binaire. 

3. Procede selon la revendication 2, dans lequel le 
degre c'activite vocale (y^) est une fonction, variant 
continument entre 0 et 1. 

4. Procede selon l'une quelconque des revendications 
precedentes, dans lequel les estimations du bruit sont 
obtenues dans differentes bandes f requentielles du signal, 
le debruitage a priori est effectue bande par bande, et il 
est determine un degre d'activite vocale (y t ) p0 ur 
chaque bande. 

5. Procede selon l'une quelconque des revendications 
precedences , dans lequel on obtient une estimation du 
bruit B nti pour la trame n dans une bande de frequences i 
sous la forme : 
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avec Ki = *n-l f i + • s n,i 

ou A< B est un facteur d'oubli compris entre 0 et 1, y n ^ est 

le degre d'activite vocale determine pour la trame n dans 
5 la bande de frequences i, et S n ^ i est une moyenne de 

1' amplitude du spectre + du signal de parole de la trame n 
sur la bande i. 

6. Procede selon la revendication 5, dans lequel le 
signal d£bruite a priori Ep ± relativement a une trame n 

10 et a une bande de frequences i est de la forme : 

s n,i ~ a n-xl,i' B n-xl, i 

ou Hp Dfi = , xl est un entier au moins 

^n-t2,i 

egal a 1, x2 est un entier au moins egal k 0, a' i • est 

un coefficient de surestimation determine pour la trame 
15 n-rl et la bande i, et Pp i est un coefficient positif . 

7. Procede selon l'une quelconque des revendications 
precedentes, dans lequel on calcule une estimation A long 

terme (i n/i ) de l'energie du signal d6bruit£ a priori 
( ^Pn,i'' et on compare cette estimation a long terme a une 

20 estimation instantanee (ba) de cette energie, calculee sur 
la trame en cours, pour obtenir le degre d'activite vocale 
' Y n,i' de. ladite trame. 
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